iT邦幫忙

2024 iThome 鐵人賽

DAY 8
0
Python

Python自修系列 第 8

DAY8:學習如何使用Pandas進行數據處理和分析

  • 分享至 

  • xImage
  •  

安裝Pandas

pip install pandas
import pandas as pd

# 從CSV文件讀取數據到Pandas DataFrame中
df = pd.read_csv('ptt_articles.csv')

# 顯示前幾行數據
print("前5行數據:")
print(df.head())

# 檢查數據概況
print("\n數據概況:")
print(df.info())

# 處理缺失值 (如果有)
# 這裡我們假設如果缺少某些列的數據,可以用空字符串替換
df.fillna('', inplace=True)

# 將圖片URL列表和表格數據從字符串轉換回列表
df['images'] = df['images'].apply(lambda x: eval(x) if x else [])
df['tables'] = df['tables'].apply(lambda x: eval(x) if x else [])

# 基本分析操作
# 1. 計算每篇文章中的圖片數量
df['image_count'] = df['images'].apply(len)

# 2. 計算每篇文章中的表格數量
df['table_count'] = df['tables'].apply(len)

# 3. 找出包含最多圖片的文章
max_images_article = df.loc[df['image_count'].idxmax()]
print("\n包含最多圖片的文章:")
print(max_images_article[['title', 'image_count']])

# 4. 找出包含最多表格的文章
max_tables_article = df.loc[df['table_count'].idxmax()]
print("\n包含最多表格的文章:")
print(max_tables_article[['title', 'table_count']])

上一篇
DAY7:數據保存到SQLite數據庫中,並從數據庫中查詢數據
下一篇
DAY9:如何使用Matplotlib進行數據可視化
系列文
Python自修30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言